Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

نویسندگان

  • Didier Bourigault
  • Cécile Frérot
چکیده

We carry out an experiment aimed at using subcategorization information into a syntactic parser for PP attachment disambiguation. The subcategorization lexicon consists of probabilities between a word (verb, noun, adjective) and a preposition. The lexicon is acquired automatically from a 200 million word corpus, that is partially tagged and parsed. In order to assess the lexicon, we use four different corpora in terms of genre and domain. We assess various methods for PP attachment disambiguation : an exogenous method relies on the sub-categorization lexicon whereas an endogenous method relies on the corpus specific ressource only and an hybrid method makes use of both. The hybrid method proves to be the best and the results vary from 79.4 % to 87.2 %.. MOTS-CLÉS : analyse syntaxique, rattachement prépositionnel, sous-catégorisation, évaluation.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modélisation Sémantique de l'Utilisateur

Résumé. Notre approche « sémantique de l’utilisabilité », basée sur la catégorisation, correspond à un mode de représentation des connaissances, sous la forme d’un treillis de Galois qui permet de modéliser et simuler les procédures utilisateurs sur un dispositif technique. Cette approche, qui diffère de celles qu’on trouve avec SOAR ou ACT, associe les actions et les procédures aux catégories ...

متن کامل

Multi-way Tensor Factorization for Unsupervised Lexical Acquisition

This paper introduces a novel method for joint unsupervised aquisition of verb subcategorization frame (SCF) and selectional preference (SP) information. Treating SCF and SP induction as a multi-way co-occurrence problem, we use multi-way tensor factorization to cluster frequent verbs from a large corpus according to their syntactic and semantic behaviour. The method extends previous tensor fac...

متن کامل

L'alignement des documents médiévaux

RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, ...

متن کامل

The Index Thomisticus Treebank Project: Annotation, Parsing and Valency Lexicon

We present an overview of the Index Thomisticus Treebank project (IT-TB). The ITTB consists of around 60,000 tokens from the Index Thomisticus by Roberto Busa SJ, an 11million-token Latin corpus of the texts by Thomas Aquinas. We briefly describe the annotation guidelines, shared with the Latin Dependency Treebank (LDT). The application of data-driven dependency parsers on IT-TB and LDT data is...

متن کامل

Évaluation de lexiques syntaxiques par leur intégartion dans l'analyseur syntaxiques FRMG

Résumé Dans cet article, nous évaluons divers lexiques avec l'analyseur syntaxique FRMG : le Lefff, LGLex, le lexique syntaxique construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE, ainsi qu'une nouvelle version des entrées verbales du Lefff, obtenues par fusion avec DICOVALENCE et validation manuelle partielle. Pour cela, tous ces lexiques ont été convertis a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • TAL

دوره 47  شماره 

صفحات  -

تاریخ انتشار 2006